程序包 hust.cs.javacourse.search.parse

hust.cs.javacourse.search.parse包里定义了文档解析、分词,单词过滤有关的抽象类.学生需要实现这些抽象类的具体子类
  • 类概要 
    说明
    AbstractTermTupleFilter
    抽象类AbstractTermTupleFilter类型是AbstractTermTupleStream的子类,里面包含另一个 AbstractTermTupleStream对象作为输入,并对输入的AbstractTermTupleStream进行过滤, 例如过滤掉所有停用词(the,is are...)对应的三元组 其具体子类需要重新实现next方法以过滤掉不需要的单词对应的三元组.同时可以实现多个不同的过滤器 完成不同的过滤功能,多个过滤器可以形成过滤管道.
    AbstractTermTupleScanner
    AbstractTermTupleScanner是AbstractTermTupleStream的抽象子类,即一个具体的TermTupleScanner对象就是 一个AbstractTermTupleStream流对象,它利用java.io.BufferedReader去读取文本文件得到一个个三元组TermTuple.
    AbstractTermTupleStream
    AbstractTermTupleStream是各种TermFreqPosTupleStream对象的抽象父类 TermFreqPosTupleStream是三元组TermTuple流对象,包含了解析文本文件得到的三元组序列